本文简要介绍EMNLP 2018论文“Chargrid: Towards Understanding 2D Documents”的主要工作。该论文主要提出一种结合文档二维结构信息的文档表征方式Chargrid(字符栅格),并根据这种表征方式用基于深度学习的方法设计了网络进行实验,在发票信息抽取任务上取得不错的效果。
现实生活中,文本经常被以结构化文档的形式呈现出来。在这种情况下,怎么去理解文档中的文本,不仅受文本本身语义的影响,还跟文档的二维结构有关。因此,被广泛用于处理无格式文本理解任务的自然语言处理方法,对于这种结构化的文本难以适用;而基于计算机视觉的方法,因为没有直接的文本语义信息输入,需要先对文本进行识别再进行理解,这就需要大量的训练数据以及复杂的方法设计。因此,本文提出一种新的应用于结构化文本处理和理解任务的文档表征方式。
图1 原始文档图片(左)及对应的Chargrid表征方式(右)
这种表征方式的主要做法是,先对文档图片进行OCR识别,得到每一个字符的位置和识别结果,然后对文档中属于该字符位置的像素点进行统一的字符编码(具体的编码方式可以因任务不同而不同,本文实验中用到的是1-hot编码),其他没有字符位置的像素编码为0。这样,就得到了文档图片的Chargrid表征结果。
针对提出的Chargrid文档表征方式,文章设计了一个深度网络模型用于信息抽取任务。设计的网络结构如下图:
图2 基于Chargrid的文档图片理解网络结构示意图
网络结构主要由一个编码器和两个解码器构成,编码器是VGG类型的网络,包含空洞卷积、BN层、Spatial Dropout等设计技巧。解码器包括语义分割分支与文本框回归分支,都由几层反卷积层构成。语义分割分支主要对输入的不同文本实体进行像素级别分割,得到每类文本的掩码;回归分支为一个含有Anchor设计的类似于单阶段检测器的结构,该分支负责对Anchor的坐标位置进行回归,同时也对每个Anchor的类别(前景、背景)进行掩码分类。最终网络的损失为多分支的损失叠加:
三个损失分别为:像素级实例分割交叉熵,Anchor分类掩码二元交叉熵以及检测框的Huber损失。训练过程中,本文还用到了一些防止类别不平衡以及对输入的Chargrid进行下采样的一些技巧。本文用该方法在发票数据集上进行了实验,实验任务为抽取发票中包括发票编码、日期、总金额、开票单位、开票单位地址以及商品明细(商品描述、数量、金额)等8类信息。在实验中,对比基于自然语言处理序列处理方法以及基于计算机视觉的图片处理方法,都获得了性能上的提升,证明了本文提出方法的有效性。实验结果如下各表所示。
Table 1 Accuracy measure for an 8-class information extraction problem on invoices. The proposed chargrid models perform consistently well on all extracted fields compared to sequential and image models.
从实验结果中可以得到如下结论:
基于自然语言处理的序列方法在不同类别的信息抽取上表现不同,对于表中前面5个Single-instance信息表现较好,对于后面3个Multi-instance则比较差,因为后面3个Multi-instance信息的理解很大程度依赖于文档的二维结构;
单纯基于图片处理的方法在各种类别的表现都比较一般。
综合了原始图片输入与Chargrid编码输入的Hybrid模型性能并没有提升,这是因为大多数有用的信息可以来自Chargrid,原始图片并不能再提供更多的有用信息。
错误分析:Example 1检测商品条目时多检测了无关的商品描述信息;Example 2 漏检部分商品条目;Example 3 混淆了不同商品条目的内容。
- 本文提出的Chargrid编码方式可以很好地编码结构化文本的位置、大小、对齐信息,这种表征方法未来可以应用到更多自然语言处理任务中;
- 引入二维的数据表征方式增大了数据的维度,模型的训练需要大量的数据与时间;
- 在未来,除了本文提出的基于1-hot字符编码的Chargrid表征方式,基于单词的Wordgrid或许也可以成为一种有效的的表征方式。
- Chargrid: Towards Understanding 2D documents 论文地址:https://arxiv.org/pdf/1809.08799.pdf
- BERTgrid: Contextualized Embedding for 2D Document Representation and Understanding 论文地址:https://arxiv.org/pdf/1909.04948.pdf
[1] Katti, Anoop Raveendra, et al. "Chargrid: Towards understanding 2d documents." EMNLP (2018).[2] Denk, Timo. Wordgrid: Extending Chargrid with Word-level Information. 10.13140/RG.2.2.19846.11844 (2019). [3] Denk, Timo I., and Christian Reisswig. "BERTgrid: Contextualized Embedding for 2D Document Representation and Understanding." arXiv preprint arXiv:1909.04948 (2019).[4] Palm, Rasmus Berg, Ole Winther, and Florian Laws. "CloudScan-A configuration-free invoice analysis system using recurrent neural networks." ICDAR 2017.[5] Yang X , Yumer E , Asente P , et al. Learning to Extract Semantic Structure from Documents Using Multimodal Fully Convolutional Neural Network[J]. CVPR 2017.[6] Dang, Tuan Anh Nguyen, and Dat Nguyen Thanh. "End-to-End Information Extraction by Character-Level Embedding and Multi-Stage Attentional U-Net." BMVC 2019.
原文作者:Anoop R Katti, Christian Reisswig, Cordula Guder, Sebastian Brarda, Steffen Bickel, Johannes Hohne, Jean Baptiste Faddoul
编排:高 学
审校:殷 飞
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (投稿邮箱:xuegao@scut.edu.cn)。
(扫描识别如上二维码加关注)